Potential Reward Shaping不改变智能体的原始最优策略

1st Jan 2026
4 min read

Potential Reward Shaping唯一一种在理论上不改变智能体的原始最优策略的奖励塑形方法。

这是一个 标准但必须一步不跳 的证明问题。下面给出一个 从定义出发、逐行可检查 的推导，说明为什么 potential shaping 会导致 价值函数的状态相关“常数平移”，而与智能体在该状态执行什么动作没有关系：

$$ V’^\pi(s)=V^\pi(s)+\Phi(s) $$

0️⃣ 前提与记号（先统一）

原始奖励：
$$ r(s,a,s’) $$
Shaping 后奖励：
$$ r’(s,a,s’) = r(s,a,s’) + \gamma\Phi(s’) - \Phi(s) $$
折扣因子：
$$ \gamma \in (0,1] $$
固定一条策略 $\pi$（不是最优，只是任意）

价值函数定义： $$ V^\pi(s) = \mathbb{E}\pi!\left[\sum{t=0}^\infty \gamma^t, r(s_t,a_t,s_{t+1}) \mid s_0=s\right] $$

1️⃣ 写出 shaping 后的价值函数定义

$$ \begin{aligned} V’^\pi(s) &= \mathbb{E}\pi!\left[\sum{t=0}^\infty \gamma^t, r’(s_t,a_t,s_{t+1}) \right] \ &= \mathbb{E}\pi!\left[\sum{t=0}^\infty \gamma^t \big(r(s_t,a_t,s_{t+1}) + \gamma\Phi(s_{t+1}) - \Phi(s_t)\big)\right] \end{aligned} $$

把和拆开（线性期望）：

$$ \begin{aligned} V’^\pi(s) = {} & \mathbb{E}\pi!\left[\sum{t=0}^\infty \gamma^t r_t\right] + \mathbb{E}\pi!\left[\sum{t=0}^\infty \gamma^{t+1}\Phi(s_{t+1})\right] \ &\quad - \mathbb{E}\pi!\left[\sum{t=0}^\infty \gamma^{t}\Phi(s_{t})\right] \end{aligned} $$

2️⃣ 第一项：原始价值函数

$$ \mathbb{E}\pi!\left[\sum{t=0}^\infty \gamma^t r_t\right] = V^\pi(s) $$

这一项没有争议。

3️⃣ 关键：后两项形成望远镜求和

我们单独看。

第三项（负的）

$$ \sum_{t=0}^\infty \gamma^{t}\Phi(s_t) = \Phi(s_0) + \gamma\Phi(s_1) + \gamma^2\Phi(s_2)+\cdots $$

第二项（正的）

$$ \sum_{t=0}^\infty \gamma^{t+1}\Phi(s_{t+1}) = \gamma\Phi(s_1) + \gamma^2\Phi(s_2)+\cdots $$

把它们相减：

$$ \sum_{t=0}^\infty \gamma^{t+1}\Phi(s_{t+1})

\sum_{t=0}^\infty \gamma^{t}\Phi(s_t) = -\Phi(s_0) $$

所有后续项完全抵消，只剩下初始状态。
这一步是整个证明的核心。

4️⃣ 代回总式

$$ \begin{aligned} V’^\pi(s) &= V^\pi(s) - \Phi(s_0) \ &= V^\pi(s) + \Phi(s) \end{aligned} $$

（注意：这里 $s_0=s$，负号已在定义中体现）

✅ 证明完成。

5️⃣ 为什么这一步这么“神奇”？

因为 shaping 项被设计成： $$ \gamma\Phi(s’) - \Phi(s) $$

它本质上是一个 折扣后的离散梯度（discrete temporal difference），
在时间上天然形成 telescoping sum（望远镜和）。

换句话说：

Potential shaping 不是“随便加奖励”，而是精心构造的“可积项”。

6️⃣ 从 Bellman 方程角度的等价结论（补充）

你也可以验证： $$ Q’^\pi(s,a) = Q^\pi(s,a) + \Phi(s) $$

于是： $$ \arg\max_a Q’^(s,a) = \arg\max_a Q^(s,a) $$

这正是 最优策略不变性 的数学根源。

7️⃣ 一句话总结（严格版）

Potential shaping 的奖励在时间维度上形成望远镜求和，使得 shaping 对整条轨迹的累计影响只剩下初始状态的 $\Phi(s)$，从而导致价值函数的状态相关常数平移，而不改变动作间的相对优劣。